TD - Statistiques descriptives
De nos jours, les mathématiques sont utilisées dans de nombreux domaines : mécanique , électricité , chimie , informatique , théorie des jeux , économie , arts visuels ... Certains diront que bien heureusement il existe des disciplines complètement étrangères aux maths, comme les langues et la littérature, encore épargnées. Et pourtant, ce n'est pas vraiment le cas ! De nos jours, les mathématiques servent aussi à reconnaître la langue d'un texte , à traduire , à reconnaître les paroles , à détecter les plagiats dans les oeuvres littéraires, etc. Dans ce TD, vous utiliserez les statistiques pour étudier des textes en français et en anglais.
IUne vie
Exercice 1
1
Dans votre dossier personnel, créez un dossier appelé "TD Statistiques". Téléchargez ce fichier texte
vie.txt
dans le dossier que vous venez de créer (Clic droit, puis Enregistrer sous, et choisir son dossier). Il s'agit d'un roman d'un célèbre auteur français. Dans ce dossier, créer un fichier "reponses.txt" dans lequel vous répondrez aux questions posées par l'énoncé.
2
Afin d'ouvrir ce texte, nous allons utiliser le logiciel Notepad++. Pour cela, il faut faire un clic droit sur le fichier vie.txt que vous venez de télécharger, puis cliquez sur Edit with Notepad++.

3
Nous allons compléter ce tableau d'effectif des lettres du texte à l'aide de Notepad++ : $$ \begin{array}{|l|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline Lettres (vie.txt) & a & b & c & d & e & f & g & h & i & j & k & l & m \\ \hline Effectifs & ...... &3713 & 9417 & 11662 & ...... & 3846 & 3061 & 2778 & ...... & 2063 & 2 & 21882 & 9758 \\ \hline \end{array} \\ \begin{array}{|l|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline Lettres (vie.txt) & n & o & p & q & r & s & t & u & v & w & x & y & z \\ \hline Effectifs & 24547 & ...... & 9259 & 3263 & 22335 & 27886 & 25864 & ...... & 5586 & 1 & 1310 & 733 & 360 \\ \hline \end{array} \\ \ \\ $$
a
En suivant les instructions suivantes, compléter le tableau en comptant les lettres manquantes.
Afin de compter chacune des lettres dans Notepad++, il faut cliquer sur Recherche (ou Search en anglais), puis Rechercher... (ou Find en anglais). Raccourci clavier : faire Ctrl + F. Tapez la lettre concernée dans le champ "Recherche", et cliquer sur Compter (ou Count en anglais).

b
Trouver le nombre de caractères dans le texte en suivant la méthode suivante :
Afin de connaître l'effectif total des lettres du texte, cliquez sur Affichage (ou View en anglais), puis Summary (signifiant "résumé"). Le nombre de caractères est donné à côté de Characters.
Exercice 2
1
Nous allons maintenant utiliser un tableur afin de réaliser une étude statistique. Téléchargez le fichier suivant
stats.ods
dans votre dossier TD Statistiques, et ouvrez le (en double cliquant, il s'ouvre normalement avec Libre Office).
a
Dans le fichier stats.ods, complétez la ligne des effectifs, en entrant les valeurs au clavier et en validant avec Entrée. En cas d'erreur, cliquez sur Edition, puis Annuler (ou directement Ctrl + Z).
b
En utilisant la commande "=SOMME (...)" (ou "=SUM (...)" si le logiciel n'est pas en français), calculer l'effectif total dans la case AB3.
c
L'effectif total obtenu à la question précédente est-il égal au nombre de caractères déterminé à l'exercice précédent ? Expliquer.
2
Le but ici est de remplir la ligne des fréquences à l'aide du logiciel. Afin de ne pas taper 26 fois la même formule, nous allons faire faire les calculs au logiciel :
a
La formule de calcul de la fréquence est : $$ fréquence = \frac{effectif}{effectif\ total} $$
Dans le tableur, une formule commence toujours par le signe "=". Il est possible d'y mettre des nombres, les signes \(+, -, *, /\), mais aussi des cases du tableur (par exemple F3 pour utiliser l'effectif de la lettre "e").
Placez-vous dans la case B4, puis : - tapez "="
- cliquez sur la case de l'effectif de lettre "a"
- tapez "/AB3"
- Validez avec Entrée

b
Il est possible de faire la même chose pour la lettre b, mais le logiciel peut vous faire gagner du temps :
- Sélectionner la case B4 que vous venez de remplir avec la formule
- Faire clic droit, puis copier (ou directement Ctrl+C)
- Sélectionner la case C4 des effectifs de la lettre "b"
- Faire clic droit, puis coller (ou directement Ctrl+V)
Il y a une erreur, mais c'est normal : le logiciel s'est adapté et a réutilisé la formule en décalant la case. Vous pouvez voir dans la barre du haut que la formule est "C3/AC3" et non pas "B3/AB3".
Si la case C3 doit être décalée, nous ne souhaitons pas décaler la case du total AB3.
Si la case C3 doit être décalée, nous ne souhaitons pas décaler la case du total AB3.
Pour "fixer" une case en cas de copier-coller, il suffit, dans la formule, d'écrire un "$" devant.
Corrigez la formule de la fréquence en B4 en conséquence, et obtenez la fréquence des lettres b.
c
Encore une fois on pourrait faire cette manipulation pour chacune des lettres, mais le logiciel peut faire gagner beaucoup de temps :
- Sélectionner la case B4 que vous venez de remplir avec la formule
- Cliquez en laissant appuyé sur le petit carré noir en bas à droite de la case, et glissez jusqu'à la case AA4 (en dessous de la lettre "z")
Grâce à cette manipulation, le logiciel a fait la même chose qu'a la question précédente, mais pour toutes les cases. Attention, l'"intelligence" du logiciel est limitée, il ne comprend pas toujours très bien nos intentions.
Exercice 3
Nous allons utiliser le logiciel afin de représenter graphiquement , et de différentes manières, la série statistique.
1
Représentons les effectifs sous forme d'un diagramme en bâtons :
-
Cliquez sur le bouton Diagrammes
.
-
Sélectionnez
comme type de diagramme. Cliquez sur
.
-
Sélectionnez la plage de données en cliquant d'abord sur le bouton
.
- Avec la souris, sélectionnez toutes les valeurs du tableau de la case B2 à la case AA6.
-
Cochez Série de données en lignes et Première ligne comme étiquettes, puis cliquez sur
- Il faut représenter seulement la ligne des effectifs (la ligne 3). Donc, supprimez les lignes 4, 5 et 6 dans la zone Séries de données.
- Vous pouvez changer la légende dans Plage pour nom, puis cliquez sur Terminer
Le diagramme est déplaçable et peut encore se modifier en faisant un clic droit dessus.
2
En réutilisant les étapes précédentes, représentez maintenant les fréquences à l'aide d'un diagramme circulaire (ou camembert).
3
En réutilisant les étapes précédentes, représentez maintenant les ECC à l'aide d'une courbe des effectifs croissants.
4
Représentez les FCC à l'aide d'un nuage de points.
IIA life
Exercice 4
1
Téléchargez ce fichier texte
life.txt
dans le dossier du TD (Clic droit, puis Enregistrer sous, et choisir son dossier). Il s'agit d'une traduction en anglais du roman précédent.
2
A l'aide du logiciel Notepad++, complétez le tableau suivant : $$ \begin{array}{|l|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline Lettres (life.txt) & a & b & c & d & e & f & g & h & i & j & k & l & m \\ \hline Effectifs & 20148 & 3456 & 5252 & 11715 & 33473 & 5046 & 5351 & 17501 & 15795 & 781 & 1971 & 10174 & 5846 \\ \hline \end{array} \\ \begin{array}{|l|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline Lettres (vie.txt) & n & o & p & q & r & s & t & u & v & w & x & y & z \\ \hline Effectifs & 17517 & 18327 & 3757 & 219 & 14132 & 15552 & 21982 & 6504 & 2121 & 6128 & 291 & 4307 & 164 \\ \hline \end{array} \\ \ \\ \text{Effectif total : } ........... $$ Comparez l'effectif total de la version anglaise avec celui de la version originale, ainsi que le nombre de mots.
Que remarque-t-on ? Certains disent que l'anglais est une langue plus "efficace que le français", qu'en pensez-vous ?
Que remarque-t-on ? Certains disent que l'anglais est une langue plus "efficace que le français", qu'en pensez-vous ?
3
a
Dans le fichier stats.ods, créez en dessous du premier tableau, un tableau d'effectifs pour les lettres de la version anglaise du roman.
b
Faites tracer au logiciel un diagramme en bâtons pour représenter les effectifs.
c
En comparant ce diagramme à celui de la version originale du roman, pouvez vous faire quelques remarques intéressantes sur l'utilisation des lettres en français et en anglais (par exemple sur les voyelles, le w, le k ...) ? Donner des exemples.
Exercice 5
Lorsque l'on souhaite traduire automatiquement un texte sur internet, en entrant la phrase à traduire, le logiciel en ligne propose souvent la bonne langue grace à un détecteur automatique de langue.
Une solution pour détecter les langues consiste à chercher automatiquement les mots de la phrase donnée dans des dictionnaires en différentes langues (comme le "Rechercher" de notepad++). La méthode des dictionnaire est un peu lourde, même pour un ordinateur rapide.
1
Une phrase comportant 200 lettres est proposée à un logiciel de traduction. Il analyse automatiquement les effectifs des lettres et les trie par importance, ce qui se traduit par le diagramme ci-dessous :
2
Proposer une méthode statistique qui vous semblerait efficace pour détecter la langue d'un texte. Cette méthode est-elle infaillible ? Justifier.
Groupe B : téléchargez le
tableur rempli ici